#batching por recursos

BlendServe: Optimización de inferencia offline con batching por recursos

¿Quieres optimizar la inferencia offline de modelos grandes? BlendServe combina batching consciente de recursos y prefijo compartido logrando hasta 1.44x más rendimiento que vLLM y SGLang.

2026-06-09 · 3 min